智能论文笔记

Indian Licence Plate Dataset in the wild

Sanchit Tanwar , Ayush Tiwari , Ritesh Chowdhry

分类：计算机视觉

2021-11-11

印度车牌检测是一个问题，它在开源级别尚未探讨。可以使用专有解决方案，但没有大的开源数据集可用于执行实验并测试不同的方法。可用的大型数据集是中国，巴西等国家，但在这些数据集上培训的模型对印度板块表现不佳，因为字体样式和板材设计从国家到国家差异很大。这篇论文介绍了印度车牌数据集使用16192图像和21683板板用每个板的4个点注释，并且相应的板中的每个字符.WE呈现了一种使用语义分割来解决数字板检测的基准模型。我们提出了一种两级方法，其中第一阶段是用于本地化板，第二阶段是读取裁剪板图像中的文本.WE测试的基准对象检测和语义分段模型，用于第二阶段，我们使用了LPRNET基于OCR。

translated by 谷歌翻译

Label-Efficient Self-Training for Attribute Extraction from Semi-Structured Web Documents

Ritesh Sarkhel , Binxuan Huang , Colin Lockard , Prashant Shiralkar

分类：机器学习

2022-08-27

从HTML文档中提取结构化信息是一个长期研究的问题，其中包括知识库构造，面积搜索和个性化建议。先前的工作依靠每个目标网站上的一些人体标记的网页或一些从某些种子网站的人类标记的网页来培训可转移的提取模型，该模型在看不见的目标网站上概括。嘈杂的内容，较低的站点级别的一致性以及缺乏通信协议使标签网页成为耗时且昂贵的磨难。我们开发的最少是半结构化Web文档的标签有效的自我训练方法，以克服这些限制。至少利用一些人标记的页面来伪造来自目标垂直行业的大量未标记的网页。它使用自我训练对人类标记和伪标记的样品进行了可转移的Web取消模型训练。为了减轻由于嘈杂的训练样本而导致的错误传播，至少根据其估计的标签准确性重新重量重量，并将其纳入培训。据我们所知，这是第一项提出端到端培训的工作，用于仅利用少数人标记的页面进行可转移的Web提取模型。大规模公共数据集的实验表明，每个种子网站上使用少于十个人体标记的页面进行培训，最不受欢迎的模型在未见网站上的平均f1点以上的最新型号超过26个平均F1点，减少人类标记的页面的数量，以达到超过10倍的性能。

translated by 谷歌翻译

Annotated Speech Corpus for Low Resource Indian Languages: Awadhi, Bhojpuri, Braj and Magahi

Ritesh Kumar , Siddharth Singh , Shyam Ratan , Mohit Raj , Sonal Sinha , bornini lahiri , Vivek Seshadri , Kalika Bali , Atul Kr. Ojha

分类：自然语言处理

2022-06-26

在本文中，我们使用语言数据收集的现场方法讨论了四种低资源印度语语言的演讲语料库的过程中的工作 - Awadhi，Bhojpuri，Braj和Magahi。目前，语料库的总大小约为18小时（每种语言约4-5小时），并用语法信息进行转录和注释，例如词性标签，形态学特征和普遍的依赖关系。我们讨论了以这些语言收集数据的方法，其中大多数是在Covid-19大流行中心进行的，其中之一是为低收入群体带来一些额外的收入，说这些语言。在本文中，我们还讨论了这些语言中自动语音识别系统的基线实验的结果。

translated by 谷歌翻译

UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren , Omer Goldman , Salam Khalifa , Nizar Habash , Witold Kieraś , Gábor Bella , Brian Leonard , Garrett Nicolai , Kyle Gorman , Yustinus Ghanggo Ate

分类：自然语言处理

2022-05-07

通用形态（UNIMORPH）项目是一项合作的努力，可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力：一种无独立的特征架构，用于丰富的形态注释，并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进（自McCarthy等人（2020年）以来）。众多语言学家的合作努力增加了67种新语言，其中包括30种濒危语言。我们已经对提取管道进行了一些改进，以解决一些问题，例如缺少性别和马克龙信息。我们还修改了模式，使用了形态学现象所需的层次结构，例如多肢体协议和案例堆叠，同时添加了一些缺失的形态特征，以使模式更具包容性。鉴于上一个UniMorph版本，我们还通过16种语言的词素分割增强了数据库。最后，这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。

translated by 谷歌翻译

Semantic Sensor Network Ontology based Decision Support System for Forest Fire Management

Ritesh Chandra , Kumar Abhishek , Sonali Agarwal , Navjot Singh

分类：人工智能

2022-04-03

森林是每个国家的重要资产。当它被摧毁时，它可能会对环境产生负面影响，而森林大火是主要原因之一。火灾天气指数被广泛用于测量火灾危险，并用于发出丛林大火警告。它也可以用来预测应急管理资源的需求。传感器网络在数据收集和处理能力方面已越来越受欢迎，用于医疗，环境监测，家庭自动化等行业的各种应用。语义传感器网络可以收集各种气候情况，例如风速，温度和相对湿度。但是，由于处理传感器生成的数据流涉及的各种问题，估计火灾指数构成了挑战。因此，森林火灾检测的重要性日复一日增加。构建了基础语义传感器网络（SSN）本体，以允许开发人员创建用于计算火灾天气指数的规则，并将数据集转换为资源描述框架（RDF）。这项研究描述了制定计算火灾天气指数的规则所涉及的各个步骤。此外，这项工作提供了一个基于Web的映射接口，以帮助用户可视化随着时间的推移，火灾天气指数的变化。在推论规则的帮助下，它使用SSN本体论设计了决策支持系统，并通过SPARQL查询了它。拟议的消防管理系统根据情况采取行动，支持推理和开放世界的一般语义，然后是所有本体论

translated by 谷歌翻译

Translating Politeness Across Cultures: Case of Hindi and English

Ritesh Kumar , Girish Nath Jha

分类：自然语言处理

2021-12-03

在本文中，我们展示了一种基于语料库的治疗两种语言 - 英语和印地语。它研究了印地语和英语翻译并行语料库中的礼貌，看到了印地语文本中的礼貌被翻译成英文。我们提供了一个详细的理论背景，其中进行了比较，然后进行了本理论模型中的翻译数据的简要描述。由于礼貌可能成为冲突和误解的主要原因之一，因此是一种非常重要的现象，以跨文化而被研究和理解，特别是因为机器翻译的这种目的。

translated by 谷歌翻译

Creating and Managing a large annotated parallel corpora of Indian languages

Ritesh Kumar , Shiv Bhusan Kaushik , Pinkey Nainwani , Girish Nath Jha

分类：自然语言处理

2021-12-03

本文提出了创造和管理12个主要印度语言的大型并行语言（即将扩展到23种语言）的挑战，作为由信息技术部（DIT），政府部门资助的主要财团项目的一部分。印度，并在印度的10所不同大学中平行运行。为了有效地管理这些巨大的Corpora的创建和传播过程，基于Web的（具有减少的独立版本）的注释工具ILCiann（印度语言语料集团倡议注释工具）已经开发出来。它主要是为POS注释制定的，以及由具有不同竞争力和物理位于相距远的地点的人员的管理器的管理。为了维持在创建Corpora中的一致性和标准，有必要每个人都在这个工具提供的共同平台上。

translated by 谷歌翻译

Challenges in Developing LRs for Non-Scheduled Languages: A Case of Magahi

Ritesh Kumar

分类：自然语言处理

2021-11-30

Magahi是一种印度东部地区的印度雅典语言。尽管具有大量扬声器，但对于语言而言，几乎没有语言资源（LR）或语言技术（LT），主要是因为其状态为非预定语言。本文介绍了开发Magahi的注释语料库的尝试。这些数据主要从Magahi中的几个博客中获取，Magahi中的一些故事集合以及Magahi的录音，它使用BIS Tagset在POS级别注释。

translated by 谷歌翻译

Towards automatic identification of linguistic politeness in Hindi texts

Ritesh Kumar

分类：自然语言处理

2021-11-30

在本文中，我介绍了一个分类器，用于自动识别印地语文本中的语言礼貌。我使用了25,000多个博客评论的手动注释的语料库来训练SVM。利用诸如礼貌的话语和互动方法本文给出了印地语的规范性，传统的礼貌结构的阐述。可以看出，使用这些手动识别的结构作为训练中的特征，SVM在测试集上显着提高了分类器的性能。训练有素的系统具有77％的显着高精度，这是人类准确性的2％。

translated by 谷歌翻译

The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual Social Media Discourse

Ritesh Kumar , Enakshi Nandi , Laishram Niranjana Devi , Shyam Ratan , Siddharth Singh , Akash Bhagat , Yogesh Dawer

分类：自然语言处理

2021-11-19

在本文中，我们讨论了用分层，细粒度标记标记不同类型的侵略和“上下文”的分层的多语言数据集的开发。这里，这里，这里由对话线程定义，其中发生特定的评论以及评论对先前注释执行的话语角色的“类型”。在此处讨论的初始数据集（并作为逗号@图标共享任务的一部分提供），包括四种语言的15,000名注释评论 - Meitei，Bangla，Hindi和印度英语 - 从各种社交媒体平台收集作为Youtube，Facebook，Twitter和电报。正如通常在社交媒体网站上，大量这些评论都是多语种的，主要是与英语混合的代码混合。本文给出了用于注释的标签的详细描述以及开发多标签的过程的过程，该方法可用于标记具有各种侵略和偏差的评论，包括性别偏见，宗教不宽容（称为标签中的公共偏见），类/种姓偏见和民族/种族偏见。我们还定义并讨论已用于标记通过评论执行的异常发挥作用的标记的标签，例如攻击，防御等。我们还对数据集的统计分析以及我们的基线实验的结果进行了发展使用DataSet开发的自动攻击识别系统。

translated by 谷歌翻译